home *** CD-ROM | disk | FTP | other *** search
/ ftp.cs.arizona.edu / ftp.cs.arizona.edu.tar / ftp.cs.arizona.edu / icon / newsgrp / group93a.txt / 000068_icon-group-sender _Thu Feb 18 16:42:03 1993.msg < prev    next >
Internet Message Format  |  1993-04-21  |  2KB

  1. Received: by cheltenham.cs.arizona.edu; Thu, 18 Feb 1993 15:25:02 MST
  2. Date: Thu, 18 Feb 93 16:42:03 -0500
  3. From: ptho@seq1.loc.gov (Phillip Lee Thomas)
  4. Message-Id: <9302182142.AA28693@seq1.loc.gov>
  5. To: icon-group@cs.arizona.edu
  6. Subject: Text Computing
  7. Status: R
  8. Errors-To: icon-group-errors@cs.arizona.edu
  9.  
  10. Re: John Nall's question, What is text processing?
  11.  
  12. What are the X, Y, and Z's of text processing? Other than saying text
  13. processing is non-numeric computing, which is both most accurate and
  14. very negative, my text processing work has 3 components:
  15.  
  16. X. Format and edit: these deserve a category of their own because they
  17. take the most time even for numeric computing. Include here the use
  18. of editors as well as use of macros and the programming of editors.
  19.  
  20. Y. Launder: this is more general than X. Replace, filter, encrypt, code,
  21. and convert data. Coding for part of speech, changing end of line markers
  22. from UNIX to DOS conventions, compressing data, setting data up for
  23. use in a database, verifying (spell checkers included) legal character
  24. sequences are examples.
  25.  
  26. Z. Retrieve information: locate passages with specific strings or
  27. patterns of strings, find discontinuous information, find information
  28. when strings are incorrectly spelled (fuzzy, soundex searches), build
  29. special purpose databases, find material according to its linguistic
  30. syntax, computational linguistics (ratio of hypotactic versus paratactic
  31. constructions)....
  32.  
  33. Most computing can be rephrased as text processing if we include logical
  34. operations, e.g., we can do mathematics by directly using lookup tables:
  35. if a pattern of numeric characters is found, replace with values found
  36. in the Add table.
  37.  
  38. Have fun, 
  39. Phillip Lee Thomas (ptho@seq1.loc.gov) - (202) 707-3881
  40. Library of Congress
  41.